#GPU 추론

r/LocalLLaMA • 62일 전

IMP 8

자이(Zai), GLM-5.1 추론 네트워크 교체로 33% 비용 절감 및 15% 성능 향상 달성

자이(Zai)는 천 개 GPU 규모의 GLM-5.1 코딩 추론 클러스터에서 기존 ROFT 방식을 청화대와 공동 개발한 'ZCube'로 전면 교체했습니다. 동일한 GPU와 소프트웨어 스택을 유지하면서도 네트워크 아키텍처만의 변경으로 스위치 비용은 33% 줄이고, 처리량은 15% 높이며 첫 토큰 지연 시간(P99)은 40.6% 단축시키는 결과를 얻었습니다. 이는 하드웨어 비용을 추가하는 대신 트래픽 병목을 해소하는 네트워크 평면화(Flat) 방식을 통해 역설적인 성과를 입증했다는 점에서 AI 인프라 실무자들에게 매우 중요한 시사점을 줍니다.

인프라 최적화 네트워크 아키텍처 GPU 추론